﻿Masteratul de Lingvistică Computațională Curs: Introducere in Lingvistica Computațională Curs 3 Nivelul sintactic Curs: Dan Cristea Seminarii & proiect: Mihaela Onofrei, Dan Cristea Teorii și formalisme gramaticale • Teorii gramaticale și tipuri de gramatici – Gramatici formale – Gramatici de adjuncţii de arbori (TAG – Joshi) – Gramatici de adjuncţii de arbori lexicalizate (LTAG – Schabes, Joshi, Vijay-Shanker, Abeille) – Gramatici de constituenţi coordonate de regenţi (HPSG – Sag&Pollard) – Gramatici de dependenţă (Melcuk) şi gramatici de dependenţă funcţionale (Tapanainen) • Formalisme – CYK (Cocke-Younger-Kasami) – Diagrame active – PATR (Shieber) Subiecte adiacente • Te o r i i – Gramatici transformaţionale (Chomski) – Gramatici independente de context – Gramatici de constituenţi generalizaţi (GPSG – Gazdar) – Guvernare şi legare (GB – Chomsky) – Gramatici categoriale (Steedman) – Gramatici funcţionale (Dik, Bresnan) – Gramatici de dependenţă (Tesnniere, Robinson) • Formalisme – Maşini de tranziţie dezvoltate (ATN – Woods) – Parsarea LR şi algoritmul Tomita – Gramatici funcţionale de unificare (FUG – Kay) – Gramatici lexical-funcţionale (LFG – Kaplan, Bresnan) – Gramatici de clauze definite (DCG – Pereira) Gramatici formale (de constituenți) • O gramatică: (S, N, T, P) – S: un simbol neterminal “ de start” – N: o mulțime de neterminali – T: o mulțime de terminali – P: o mulțime de reguli de producție Un exemplu de gramatică G1 = {PROP, N1, T1, P1}, în care: PROP à simbolul start al gramaticii, alegerea lui semnifică că ceea ce se doreşte să se obţină reprezintă propoziţii ale acestui mini-limbaj; N1 = {PROP, GN, GV, S, V} à o mulţime de neterminali cu semnificaţiile: propoziţie, grup nominal, grup verbal, substantiv şi verb; T1 = {pisica, şoarecele, prinde} – o mulţime de cuvinte; P1 = {PROP := GN GV, à o mulțime de reguli de producție GN := S, GV := V GN, S := pisica, S := şoarecele, V := prinde} Exemplu de generare PROP GN GV S GV lacrima GV lacrima V GN lacrima duce GN lacrima duce S PROP := GN GV GN := S GV := V GN S := calul S := lacrima V := duce lacrima duce calul Derivări în TAG O gramatică de adjuncţii de arbori G = {I, A} I = mulţime de arbori iniţiali A = mulţime de arbori auxiliari Setul de arbori a unei TAG G: mulţimea de arbori ce pot fi derivaţi plecând de la arborii din I cu rădăcina simbolul start al gramaticii, care au ca noduri frunză numai noduri terminale Limbajul generat de gramatică: mulţimea şirurilor terminale ale setului de arbori ai gramaticii Gramatici de adjuncţii de arbori lexicalizate (LTAG) Asociază arbori de structură elementelor lexicale: în fiecare structură există un element lexical realizat Elementul lexical se numeşte ancoră Parsare prin LTAG Intrare: o bază de arbori lexicalizaţi parametrizaţi fraza de parsat Procesare: POS-tagging selecţia arborilor din baza de date filtrare parsarea propriu-zisă (Shabes, Joshi, 1988) (Shabes, 1990) Ieşire: nici unul, unul sau mai mulţi arbori de structură Parsare • Top-down versus bottom-up • Depth-first versus breadth-first • Algoritmul CYK • Diagrame active • Tomita… Top-down versus bottom-up parsing Top-down • se fixează un scop (structura bănuită a reprezenta fraza) • scopul curent se descompune succesiv în constituienţi (subscopuri) • se repetă acest proces până se ajunge la terminali, moment în care se face confruntarea acestora cu cei aflaţi în şirul de intrare proces direcţionat de scop (goal-driven) Bottom-up • cuvintele se înlocuiesc prin categoriile lor • acestea se combină în constituienţi conform părţilor drepte ale regulilor • procesul de combinare se continuă în toate modurile posibile până când, eventual, se reuşeşte obţinerea unei singure structuri proces direcţionat de date (data-driven) Depth-first versus breadth-first parsing Depth-first • notează toate opţiunile atunci când există mai multe alternative • alege una şi urmeaz-o • dacă eşuează întoarce-te şi alege altă cale • repetă acest proces până obţii analiza (succes) sau până la epuizarea tuturor căilor (eşec) Breadth-first • notează toate opţiunile atunci când există mai multe alternative • baleiază pe rând toate aceste căi • abandonează toate căile care eşuează dar continuă cu restul • repetă acest proces până obţii analiza (succes) sau până la epuizarea tuturor căilor (eşec) proces care se pretează la proces care se pretează la investigarea soluțiilor una după alta investigarea în paralel a soluțiilor Algoritmul Cocke-Younger- Kasami (CYK) [Hopcroft & Ullman, 1979] Fie G o GIC în forma normală Chomsky (toate producţiile au forma A ® BC sau A ® a, unde A, B, C sunt neterminali iar a - terminal) Fie x - şirul de intrare de lungime n Algoritmul determină pentru fiecare i şi j şi pentru fiecare neterminal A, dacă A Þ x , unde ij x este subşirul lui x care începe în poziţia i şi are lungimea j ij procedure CYK-recogniser(G,x) begin for i := 1 to n do Vi1 := {A|A ® a este o producţie şi al i-lea simbol al lui x este a}; for j := 2 to n do for i := 1 to n-j+1 do begin Vij := Æ; for k := 1 to j-1 do Vij := Vij È {A|A ® BC este o producţie, B Î Vik şi C ÎVi+k, j-k}; end end CYK – un exemplu Fie GIC: S ® AB | BC A ® BA | a B ® CC | b C ® AB | a şi şirul de intrare: baaba b a a b a i ® 1 2 3 4 5 1 B A,C A,C B A,C j 2 S,A B S,C S,A ¯ 3 Æ B B 4 Æ S,A,C 5 S,A,C CYK – un exemplu Iniţializarea: pentru fiecare poziţie, reguli care “acoperă” direct acel simbol Fie GIC: S ® AB | BC A ® BA | a B ® CC | b C ® AB | a şi şirul de intrare: baaba b a a b a i ® 1 2 3 4 5 1 B A,C A,C B A,C j 2 ¯ 3 4 5 Diagrame active (chart parsing) Diagramă activă (chart): graf compus dintr-un număr constant de noduri şi dintr-un număr mereu crescător de arce direcţionate şi etichetate Elemente: regulile gramaticii noduri: marcaje numerotate aşezate între cuvinte arce: active, complete etichete de arce: ái, j, A ®W • W ñ 12 parserul tentează depistarea unui constituent A care începe în poziţia i, conform regulii A ®W W , unde A este un neterminal iar W şi W sunt 1 2 1 2 secvenţe (posibil vide) de terminali şi/sau neterminali; până în poziţia j doar şirul de constituenţi W a fost detectat 1 Parsare: proliferarea arcelor active până la obținerea unor arce complete Succes: există cel puţin un arc etichetat cu simbolul start care acoperă complet diagrama Lecturi suplimentare • Algoritmul Earley Earley, Jay: “An Efficient Context-Free Parsing Algorithm”, în Communications of the ACM, vol 13, no 2, 1970 Hopcroft, J E; Ullman, J D : “Introduction to Automata Theory, Languages and Computation”, Addison-Wesley Publishing Co , 1979 • Chart parsing [King, 1980] King, M “Parsing Natural Language”, [Winograd, 1983] Winograd, T “Language as a cognitive Process”, • TAG şi LTAG Aravind Joshi, Yves Shabes, Anne Abeille Proiectul XTAG http://www cis upenn edu/~xtag/ • FDG Timo Jarvinen and Pasi Tapanainen: A dependency parser for English, http://www ling helsinki fi/~tapanain/dg/doc/TR-1/TR-1 html Gramatici funcţionale de dependenţă (FDG) • Structura de arbore: – Nodurile sunt cuvinte – Arcele exprimă relaţii sintactice între cuvinte Relaţii funcţionale în FDG I see a bird Original în http://www ling helsinki fi/~tapanain/dg/doc/TR- 1/node1 html SECTION00010000000000000000 Relaţii funcţionale în FDG Jack kitchen white and the living-room blue the Jack painted the kitchen white and the living-room blue Original în http://www ling helsinki fi/~tapanain/dg/doc/TR-1/node38 html fig973 Relaţii funcţionale în FDG painted Jack kitchen and the repaired fence the Jack painted the kitchen and repaired the fence Original în http://www ling helsinki fi/~tapanain/dg/doc/TR-1/node38 html fig973 Relaţii funcţionale în FDG What would you like me to do? Original în http://www ling helsinki fi/~tapanain/dg/doc/TR-1/node3 html figvisual In parsing: train a syntactic parser on a collection of syntactic trees (treebank) Exemplu de adnotare sintactică Parsare sintactică FDG drd Cătălina Mărănduc, dr Radu Simionescu